Multi-Level Memory for Task Oriented Dialogs

2019-06-13

本文提出了基于多层记忆网络的对话生成模型，创新点在于将context memory和KB memory分隔开，并且以一种分层的结构表示KB memory，以符合KB结果中自然的层次关系，使得模型可以支持非连续的对话（用户引用之前历史提过的KB结果），在entity F1和BLEU上远远超过之前的模型（Mem2Seq等）。

paper link
code link

Introduction

本文要解决的是结合KB的任务型对话生成问题（见表1）。

传统的模型如Mem2Seq等存在以下问题：

KB结果和对话上下文存储在同一个记忆网络中，这使得模型很难区分这两者，从而基于memory进行推理变得困难。
当前所有的模型都是以三元组的形式存储KB（subject - relation - object），这使得很难去推断不同属性之间的关系。

For instance, consider the example triple store in Table 2 showing results for a query executed for packages between “Dallas” and “Mannheim”. If the user asks the dialog agent to check the price of stay at a 5 star hotel, the memory reader needs to infer that the correct answer is $2800 by learning that the price, category and hotel need to be linked inorder to return an answer (shown in blue).
把对话当作连续过程，仅仅建模最近的用户query，没有考虑对话过程中用户的切换。

本文的创新点在于：

将上下文和KB结果存储在不同的记忆网络
舍弃传统的三元组结构，以multi-level memory来存储利用KB结果
在三个公开数据集上取得了远远优于之前模型的效果

Multi-Level Memory Network

模型包括三个部分：

分层编码器
多层记忆网络
解码器

Encoder

Encoder是一个分层编码器，由两层GRU组成。给定$t^{th}$轮的上下文$\left(c_{1}, c_{2}, \dots c_{2 t-1}\right)$，其中包括t轮的user utterance和t-1轮的system utterance，$c_{i}$由词序列组成$\left(w_{i 1}, w_{i 2}, \dots w_{i m}\right)$。首先由单层双向GRU获取序列$c_{i}$的表示$\varphi\left(c_{i}\right)$，然后将所有序列表示通过另一个GRU获取输入上下文表示c。

Multi-level Memory

Memory Representation

假设$q_{1}, q_{2}, \ldots q_{k}$是当前对话状态出现过的所有user queries，其中的每一个query $q_{i}$ 都是key-value pairs集合 $\left\{k_{a}^{q_{i}} : v_{a}^{q_{i}}, 1<a<n_{q_{i}}\right\}$，$n_{q_{i}}$是slot的数目。例如表1中第三轮对应的query是{’origin’:’Dallas’,’destination’:’Manheim’,’Start’: ’Aug 26’, ’end’: ’Aug 31’, ’Adults’:1}。一个query查询KB后可以得到结果集合，$r_{ij}$是query $q_{i}$ 对应的 $j^{th}$ 个结果，每一个结果也是key-value pairs $\left\{k_{a}^{r_{i j}} : v_{a}^{r_{i j}}, 1<a<n_{r_{i j}}\right\}$，$n_{\boldsymbol{r}_{i j}}$是属性总数，示例可见图1c。

memory分为三层，分别存储query representation、result representation、key-value pair representation。query representation由query $q_{i}$ 中所有的value $v_{a}^{q_{i}}$ 的词向量的词袋模型生成，记为$q_{i}^{v}$。第二层memory存储的是每个查询结果$r_{ij}$对应的表示$r_{ij}^{v}$，也是通过结果中所有的value的词向量的词袋模型生成。第三层memory存储的是结果$r_{ij}$中的一个key-value pair $\left(k_{a}^{r_{i j}} : v_{a}^{r_{i j}}\right)$ 的表示，其中value $\left(v_{a}^{r_{i j}}\right)$ 是在生成系统回复时可能会被拷贝复制的词，实际中存储的是 $k_{a}^{r_{i j}}$ 的词向量。

Decoder

解码器每次生成一个词，来自于词汇表分布或者由context memory or KB memory 复制得到，通过门控机制$g_{1}$ 来控制词汇表分布和memory分布，通过门控$g_{2}$来控制两个memory分布。

Generating words

$$
h_{t}=G R U\left(\phi^{c m b}\left(y_{t-1}\right), h_{t-1}\right)
$$
$h_{t}$ 是解码器t时刻的隐层状态，使用$h_{t}$对context memory做注意力：
$$
a_{i j}=\frac{\exp \left(w_{1}^{T} \tanh \left(W_{2} \tanh \left(W_{3}\left[h_{t}, h_{i j}^{e}\right]\right)\right)\right)}{\sum_{i j} \exp \left(w_{1}^{T} \tanh \left(W_{2} \tanh \left(W_{3}\left[h_{t}, h_{i j}^{e}\right]\right)\right)\right)}
$$
其中i代表第i个utterance，j代表第j个词，$h_{ij}^{e}$是GRU编码后的隐层状态。
$$
d_{t}=\sum_{i, j} a_{i, j} h_{i j}^{e}
$$
最终得到生成的概率分布：
$$
P_{g}\left(y_{t}\right)=\operatorname{softmax}\left(W_{1}\left[h_{t}, d_{t}\right]+b_{1}\right)
$$

Copying words from context memory

以注意力分布作为从context memory复制词的概率：
$$
P_{c o n}\left(y_{t}=w\right)=\sum_{i j : w_{i j}=w} a_{i j}
$$

Copying entries from KB memory

使用context representation $d_{t}$和decoder hidden state $h_{t}$ 计算多层KB memory注意力，第一层注意力是对query $q_{i}^{v}$做注意力：
$$
\alpha_{i}=\frac{\exp \left(w_{2}^{T} \tanh \left(W_{4}\left[d_{t}, h_{t}, q_{i}^{v}\right]\right)\right)}{\sum_{i} \exp \left(w_{2}^{T} \tanh \left(W_{4}\left[d_{t}, h_{t}, q_{i}^{v}\right]\right)\right)}
$$
第二层是对结果 $r_{ij}^{v}$做注意力：
$$
\beta_{i j}=\frac{\exp \left(w_{3}^{T} \tanh \left(W_{5}\left[d_{t}, h_{t}, r_{i j}^{v}\right]\right)\right)}{\sum_{j} \exp \left(w_{3}^{T} \tanh \left(W_{5}\left[d_{t}, h_{t}, r_{i j}^{v}\right]\right)\right)}
$$
第三层是对结果$r_{ij}$中的一个key-value pair $\left(k_{a}^{r_{i j}} : v_{a}^{r_{i j}}\right)$做注意力：
$$
\gamma_{i j l}=\frac{\exp \left(w_{4}^{T} \tanh \left(W_{6}\left[d_{t}, h_{t}, \phi^{c m b}\left(k_{l}^{r_{i j}}\right)\right]\right)\right)}{\sum_{l} \exp \left(w_{4}^{T} \tanh \left(W_{6}\left[d_{t}, h_{t}, \phi^{\operatorname{cmb}}\left(k_{l}^{r_{i j}}\right)\right]\right)\right)}
$$
$\phi^{cmb}(k_{l}^{r_{ij}})$ 代表key的词向量。将三层注意力分数结合起来：
$$
P_{k b}\left(y_{t}=w\right)=\sum_{i j l : v_{l}^{r_{i j}}} \alpha_{i} \beta_{i j} \gamma_{i j l}
$$

Decoding

解码时通过门控机制来得到从memory复制词的概率分布$P_{c}(y_{t})$：
$$
m_{t}=\sum_{i} \sum_{j} \alpha_{i} \beta_{i j} r_{i j}^{v}\\
\begin{array}{c}{g_{2}=\operatorname{sigmoid}\left(W_{7}\left[h_{t}, d_{t}, m_{t}\right]+b_{2}\right)} \\ {P_{c}\left(y_{t}\right)=g_{2} P_{k b}\left(y_{t}\right)+\left(1-g_{2}\right) P_{c o n}\left(y_{t}\right)}\end{array}
$$
然后使用另一个门控$g_{1}$来得到最终的概率分布$P(y_{t})$：
$$
\begin{array}{l}{g_{1}=\operatorname{sigmoid}\left(W_{8}\left[h_{t}, d_{t}, m_{t}\right]+b_{3}\right)} \\ {P\left(y_{t}\right)=g_{1} P_{g}\left(y_{t}\right)+\left(1-g_{1}\right) P_{c}\left(y_{t}\right)}\end{array}
$$
使用交叉熵损失函数$-\sum_{t=1}^{T} \log \left(P\left(y_{t}\right)\right)$。

Experiments

Datasets

论文使用了三个数据集：the InCar assistant (Eric and Manning, 2017), CamRest (Su et al., 2016) and the
Maluuba Frames dataset (El Asri et al., 2017)。

Helic He

NLP